iT邦幫忙

2024 iThome 鐵人賽

DAY 28
0

今天來分享生成式 AI 最底層的核心,資料,沒有針對目的使用相關的資料就很難訓練出一個能達成目的的模型,很饒舌的一句話。

獲取資料的方式

  • 公開資料集 (Public Datasets)
    例如 Google Dataset SearchGitHubKaggle 上的資料集,這些資料集涵蓋了廣泛的行業和主題,為研究者和開發者提供了豐富的訓練資源。

  • 開源資料集 (Open Source Datasets)
    由政府和學術機構提供,通常專注於特定領域的應用,為專業模型訓練提供了具有針對性的資料來源。例如政府資料開放平臺

  • 合成資料 (Synthetic Data):當真實資料不足時,以電腦模擬或演算法產生出且含有註釋資訊的合成資料,用來取代真實環境資料。

  • 資料生成器 (Data Generators)
    根據特定參數生成合成資料的工具。這些工具能根據模型的需求產生最適合的資料集。

其他還有公司內部資料、或是購買其他公司提供的資料等等

透過資料工程整理資料

資料工程是 AI 模型訓練中不可或缺的部分,涵蓋資料的擷取 (Extract)、轉換 (Transform) 和載入 (Load) 等步驟。這些步驟稱為 ETL,而這些步驟執行內容也會使結果有所不同。

  • 資料擷取
    擷取階段是 ETL 過程的第一步。這是收集來自不同地方的資料。這些資料來源會非常多樣性,有從資料庫、文件和 外部 API 等。

  • 資料轉換
    擷取的資料經過各種操作轉換為適合分析的格式。這些轉換包含清理、標準化、結構化、標籤化等方式。

  • 資料載入
    將最後轉換的資料存到指定地方,如資料庫。

選擇訓練的模型

有了資料,接著最重要的就是選擇模型,以下列出一些常見的模型比較,如果有誤,還請各位先進告知,謝謝!

模型類型 代表模型 特點 優勢 劣勢 常見應用
監督式學習 線性迴歸、決策樹、隨機森林 使用標籤資料進行訓練 預測精度高,適合分類和迴歸任務 需要大量標記資料,不適合處理未標記資料 銷售預測、客戶分類、信用風險評估
非監督式學習 K-means、PCA、層次分群 沒有標籤資料,透過資料結構尋找模式 可處理未標記資料,揭露潛在結構 解釋性差,結果難以驗證 客戶分群、推薦系統、異常偵測
半監督學習 標籤傳播、半監督 SVM 使用少量標籤資料與大量未標籤資料進行訓練 資料需求較少,適合缺乏標記資料的情況 標籤資料不足時,效果不如全監督模型 文字分類、圖片辨識、醫學影像處理
強化學習 Q-Learning、DQN、PPO 基於獎勵與懲罰進行學習,學習策略以最大化長期回報 高效率處理決策問題,能適應動態環境 訓練過程複雜,探索與利用之間的平衡困難 自動駕駛、遊戲 AI、機器人控制
卷積神經網路 CNN 擅長處理圖片資料,利用卷積層提取局部特徵 突出的圖片辨識能力,減少參數數量,運算效率高 對平移不變性很敏感,對細粒度區別的分類難度較大 圖片分類、物件偵測、醫學影像診斷
循環神經網路 RNN、LSTM、GRU 對序列資料建模,保留長期依賴 適合處理時間序列資料,能捕捉長期依賴 訓練困難,梯度消失問題,LSTM 訓練時間較長 語音辨識、文字生成、機器翻譯
生成對抗網路 GAN 生成資料的模型,透過生成器和判別器對抗學習 能生成高度真實的資料,應用於資料增強 訓練不穩定,容易出現模式崩潰 圖片生成、影片生成、資料增強
Transformer BERT、GPT、T5 基於自注意力機制,並行處理序列,適合處理長距離依賴 效率高,適合處理大規模文字資料,優於 RNN 在長依賴問題上 模型複雜度高,訓練和推理成本較高 自然語言處理(NLP)、機器翻譯、文字生成
自動編碼器 自動編碼器(Autoencoder) 透過壓縮和解壓縮進行無監督學習,生成緊湊的資料表示 能有效降維、壓縮資料,並去除雜訊 重建質量依賴於網路結構,難以處理高維資料 圖片去雜訊、特徵提取、異常偵測
變分自動編碼器 VAE 是自動編碼器的擴展版本,可生成資料 能夠生成更平滑的資料分佈,生成多樣化的資料 生成的資料質量較 GAN 差,對細節的生成能力有限 圖片生成、文字生成、資料補全

訓練過程

資料在訓練過程會分成三部分,訓練資料集、驗證資料集和測試資料集。這樣的拆分,有助於評估模型的表現。

而訓練過程大概會有幾個步驟:

  1. 初始參數初始化模型。
  2. 使用訓練資料集給模型。
  3. 透過最佳化演算法更新模型參數。
  4. 使用驗證資料評估模型,可能會微調超參數 (hyperparameters)。
  5. 訓練完成,使用測試資料來評估模型。

持續維護

因為資料會持續增加,所以上述的過程會隨著資料增長持續地進行。衍伸的問題就是如何做持續性監控。

參考


上一篇
Day 27 負責任 AI (Responsible AI)
下一篇
Day 29 企業導入生成式 AI 的挑戰
系列文
生成式 AI 的演進與應用:從理論基礎到未來趨勢30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言